#Blackwell GPU | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Blackwell GPU

對標H100！摩爾線程GPU“核彈”：參數曝光！

對標H100！國產GPU“核彈”參數曝光：1000TFLOPS算力，性能直逼Blackwell？摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光，這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。摩爾線程在其官網中，首次公佈了S5000的硬體參數：支援FP8到FP64的全精度計算，其單卡AI算力（FP8）最高可達1 PFLOPS，視訊記憶體容量為80GB，視訊記憶體頻寬達到1.6TB/s，卡間互聯頻寬為784GB/s。業內人士表示，MTT S5000實測性能對標H100，在多模態大模型微調任務中，部分性能甚至超越H100。在晶片架構層面，S5000採用第四代MUSA架構“平湖”，專為大規模AI訓練最佳化，依託MUSA全端軟體平台，原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架，讓使用者能夠以“零成本”完成程式碼遷移，相容國際主流CUDA生態。在計算精度方面，S5000作為國內一批最早原生支援FP8精度的訓練GPU，配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16，FP8可將資料位寬減半，視訊記憶體頻寬壓力降低50%，理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構，可提升30%以上訓練性能。基於S5000建構的誇娥萬卡叢集已經落地，其浮點運算能力達到10Exa-Flops，在Dense模型訓練中MFU達60%，在MoE模型中維持在40%左右，有效訓練時間佔比超過90%，訓練線性擴展效率達95%。依託原生FP8能力，它能夠完整復現頂尖大模型的訓練流程，其中Flash Attention算力利用率超過95%，多項關鍵指標均達到國際主流水平。在叢集通訊層面，S5000採用獨創的ACE技術，將複雜通訊任務從計算核心解除安裝，實現計算與通訊的零沖突平行，大幅提升模型算力利用率（MFU）。實測顯示，從64卡擴展至1024卡，系統保持90%以上的線性擴展效率，訓練速度隨算力增加幾乎同步倍增。2026年1月，智源研究院基於S5000千卡叢集，完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示，與輝達H100叢集的訓練結果高度重合，訓練損失值（loss）差異僅為0.62%。除了訓練，S5000在推理場景同樣表現優異。2025年12月，摩爾線程聯合矽基流動，基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試，實測單卡Prefill吞吐超4000 tokens/s，Decode吞吐超1000 tokens/s，這一成績刷新了國產GPU的推理紀錄。 (芯榜)

輝達B30性能將為Blackwell GPU的80%

8月24日消息，據《華爾街日報》最新的報導指出，人工智慧（AI）晶片廠商輝達（NVIDIA）正為中國市場開發一款基於最新 Blackwell 架構的定製版AI晶片B30，性能將達到Blackwell GPU的80%。Blackwell GPU系列包括B100、B200、B300等型號，報導所指的“標Blackwell GPU”可能為B100。報導稱，輝達已經向美國政府提交了B30晶片的對華出口許可申請，以批准向中國出口。這些談判於今年早些時候開始，但是最終能否獲得許可仍不確定。此前在與黃仁勳會晤批准H20對華出口許可後，川普接受媒體採訪時曾表示，他不會允許Blackwell晶片在沒有大幅降級的情況下銷往中國。川普說，如果 Blackwell 的性能比該公司的頂級產品性能低至少 30%，他將允許輝達出貨。“我有可能就‘以消極方式得到一些增強’的Blackwell GPU達成協議，”川普對記者說。“換句話說，從中扣除 30% 到 50%。”他還提到，黃仁勳計畫再次拜訪他，以就Blackwell晶片的出口許可證進行談判。川普的此番言論，似乎也為後續輝達B30獲批埋下了伏筆。畢竟，輝達H20在重新獲批後，如果在中國市場銷售情況不佳，即使川普政府可以分享15%的銷售額，但是恐怕也拿不到多少錢。如果川普政府想要從輝達在華貿易中獲取更多的銷售分成，那麼就很有可能會批准更具競爭力的B30的對華出口。當然，B30的性能相比頂級的B300必然也是需要大幅削減的，特別是在HBM容量和記憶體頻寬方面，但至少應該會比H20性能更強。此前路透的報導稱，輝達最新的對華提供的Blackwell 架構GPU是基於單晶片版本的B300（即B300A）打造，因此型號或為“B30A”。根據資料顯示，B300A基於台積電4nm製程，CoWoS-L 先進封裝，擁有144GB HBM3E，功耗為600W。路透社的報導還指出，輝達希望最早在下個月向中國客戶提供樣品進行測試。 (芯智訊)

一文帶你詳細瞭解輝達Blackwell B200 GPU

2024年3月，輝達在GTC大會上正式發佈了基於Blackwell架構的B200 GPU。Blackwell架構的發佈是輝達技術創新的又一力作。B200 GPU為訓練和推理萬億參數的大型語言模型（LLM）提供了無與倫比的計算能力，同時在能效和安全性方面實現了顯著提升。一 Blackwell架構的核心特性Blackwell架構以美國數學家David Harold Blackwell命名，象徵著其在計算領域的開創性。相較於前代Hopper架構，Blackwell在設計和性能上實現了多項突破，以下是其核心特性：1、雙晶片設計與2080億電晶體B200 GPU採用雙晶片（dual-die）設計，每個晶片面積超過800平方毫米，總計包含2080億個電晶體，是Hopper H100（800億電晶體）的兩倍以上。這種設計通過10 TB/s的晶片間高速互聯（NV-HBI）將兩個晶片整合為一個統一的CUDA GPU，顯著提升了計算密度和性能。這種多晶片模組（MCM）技術解決了單晶片在物理尺寸和製造工藝上的限制，為處理複雜AI工作負載提供了更大空間。2、先進的製造工藝B200採用台積電定製的4NP工藝，相較於H100的4nm工藝，性能提升約6%。這一工藝不僅提高了電晶體密度，還最佳化了功耗效率，使B200能夠在高性能的同時保持相對可控的能耗。3、第二代Transformer引擎Blackwell引入了第二代Transformer引擎，支援4位浮點（FP4）計算，結合NVIDIA TensorRT-LLM和NeMo框架，顯著提升了大型語言模型的推理效率。FP4精度允許在保持模型精準性的同時，處理更大的模型規模，推理性能較H100提升高達30倍。這一特性特別適合生成式AI應用，如聊天機器人和推薦系統。4、第五代NVLink與擴展性第五代NVLink提供每個GPU 1.8 TB/s的雙向頻寬，支援多達576個GPU的互聯。這種高頻寬互聯技術確保了大規模AI叢集的高效通訊，特別適合訓練超大規模模型。例如，GB200 NVL72系統通過NVLink連接36個Grace CPU和72個Blackwell GPU，推理性能較H100提升30倍。5、安全與可靠性B200是首款支援TEE-I/O的GPU，提供先進的機密計算能力，幾乎不影響加密模式下的性能。這種特性對於保護AI模型和客戶資料的隱私至關重要，適用於金融、醫療等敏感行業。此外，Blackwell的RAS（可靠性、可用性、服務性）引擎利用AI進行預測性維護，監控數千個資料點，減少當機時間。6、資料解壓縮引擎B200配備專用解壓縮引擎，支援LZ4、Snappy和Deflate等格式，加速資料分析任務。這對於需要處理大規模資料集的科學計算和企業應用尤為重要。與Hopper架構相比，Blackwell在計算性能、記憶體頻寬和擴展性上全面升級，尤其是在低精度計算和大規模叢集支援方面，展現了其為生成式AI時代量身定製的特點。二 B200 GPU詳細規格以下是B200 GPU關鍵技術參數：圖2-1 推理性能比H100高出15倍圖2-2 訓練速度比H100提高3倍圖2-3 與H100相比，將能源效率提高12倍，成本降低12倍記憶體：192GB HBM3E記憶體和8 TB/s的頻寬使B200能夠處理超大規模模型的參數，適合萬億參數LLM的訓練和推理。計算性能：9 PFLOPS的FP4性能意味著B200在低精度推理任務中表現出色，而4.5 PFLOPS的FP8性能則平衡了精度和速度。40 TFLOPS的FP64性能支援高精度科學計算。功耗：1000W的TDP較H100（700W）有所增加，反映了更高性能的需求，但其25倍的能效提升（相較於H100）降低了總體擁有成本。互聯：第五代NVLink和PCIe 6.0確保了高效的資料傳輸，特別是在多GPU叢集中。三與競爭對手的比較與AMD的Instinct MI300X GPU進行對比：具體分析如下：記憶體與頻寬：B200的HBM3E記憶體提供8 TB/s頻寬，遠超MI300X的5.3 TB/s，這在處理大型資料集時具有明顯優勢。計算性能：B200在FP8和FP16的密集計算性能高於MI300X的稀疏計算性能，尤其在AI推理任務中更具優勢。然而，MI300X在FP64性能上略勝，適合高精度科學計算。功耗：MI300X的750W TDP低於B200的1000W，但在能效比上，B200的25倍能效提升更具吸引力。技術特性：B200的第二代Transformer引擎和機密計算能力是其獨特優勢，而MI300X依賴AMD Infinity Fabric技術提供高效GPU間通訊。總體而言，B200在AI最佳化和記憶體頻寬方面領先，適合生成式AI和大規模模型訓練，而MI300X在高精度計算和較低功耗方面具有競爭力。四對AI與計算領域的影響B200 GPU的發佈對AI和計算領域具有一定影響，具體如下：推動超大規模模型發展：B200的192GB記憶體和9 PFLOPS FP4性能使其能夠處理高達10萬億參數的模型。例如，輝達CEO黃仁勳曾表示，訓練一個1.8萬億參數的GPT模型，使用2000個B200 GPU僅需90天，功耗為4兆瓦，而H100需要8000個GPU和15兆瓦。這種效率提升將加速超大規模模型的研發，推動AI在自然語言處理、圖像生成等領域的突破。企業AI轉型加速：B200整合在DGX B200和GB200 NVL72等系統中，為企業提供了從資料準備到推理的統一AI平台。其支援的多樣化工作負載（如推薦系統、聊天機器人）使企業能夠快速部署AI解決方案。例如，DGX B200系統提供72 PFLOPS訓練性能和144 PFLOPS推理性能，適合各種規模的企業。能效與成本最佳化：B200的25倍能效提升（相較於H100）顯著降低了資料中心的營運成本。結合液冷技術，B200在高性能下仍能保持較低的能耗，這對於大規模AI部署至關重要。理解晶片架構背後的邏輯，才能真正用好每一份算力。參考文獻：《NVIDIA Blackwell：The engine of the new industrial revolution》(AI算力那些事兒)

輝達RTX Pro 6000 Blackwell GPU發佈：性能與記憶體大幅提升！

輝達新一代工作站GPU——RTX Pro 6000 Blackwell的規格近日曝光，顯示出其在性能和記憶體容量上的顯著提升。根據LeadTek網站的洩露資訊以及NBD貨運記錄，RTX Pro 6000 Blackwell GPU擁有24,064個CUDA核心，配備96GB GDDR7視訊記憶體，功耗為600W，相比前代RTX 5090 GPU，CUDA核心數量增加了11%。此次曝光的RTX Pro 6000 Blackwell GPU是輝達在RTX 6000 Ada發佈兩年多後的下一代產品。從命名上看，輝達為下一代工作站卡引入了新的“Pro”標籤，旗艦產品仍屬於“RTX 6000”系列，但增加了“X”識別碼。儘管輝達的工作站產品命名法一直不夠統一，但此次的“Pro”標籤似乎暗示了更高的性能定位。根據洩露的規格資訊，RTX Pro 6000 Blackwell系列包括兩個版本：RTX Pro 6000 X Blackwell和RTX Pro 6000 Blackwell。兩款GPU均配備96GB GDDR7視訊記憶體，採用512位記憶體介面，視訊記憶體由多個24Gb（3GB）晶片組成，兩個晶片共享一個32位記憶體控製器。非“X”版本的RTX Pro 6000 Blackwell擁有188個流處理器（SM），相當於24,064個CUDA核心，佔GB202晶片的97.9%。而主銷的RTX Pro 6000 X Blackwell則採用GB202-870晶片，預計將啟用所有192個SM。 RTX Pro 6000 Blackwell的功耗為600W，是RTX 6000 Ada所需功耗的兩倍多，但可以通過一根12V-2x6電源線滿足供電需求。這一高功耗設計表明，該GPU旨在滿足專業應用的高性能需求，尤其是在人工智慧訓練和推理、遊戲開發、內容創作、專業可視化（ProViz）和電腦輔助設計（CAD）等領域。儘管96GB的視訊記憶體容量對於大多數遊戲場景而言可能過剩，但在上述專業應用中，大容量視訊記憶體將提供顯著優勢。

輝達未來12個月的Blackwell GPU全數售罄！

10月12日消息，根據摩根士丹利分析師周四發佈的報告稱，未來一整年的Blackwell GPU 供應量已經售罄。這類似於幾個季度前Hopper GPU 供應的情況。因此，預計輝達明年有望獲得更高的AI晶片市場份額。據理解，摩根士丹利的分析師Joseph Moore 在與包括首席執行官黃仁勳（Jensen Huang）在內的輝達管理層會面後理解到，Blackwell GPU未來12個月的產能已經被預定一空。這意味著現在下訂單的新買家必須等到明年年底才能收到貨。 Moore在給客戶的報告中指出，輝達的傳統客戶（AWS、CoreWeave、Google、Meta、Microsoft 和Oracle 等）已經購買了輝達及其合作夥伴台積電在未來幾個季度將能夠生產的所有Blackwell GPU。如此壓倒性的需求可能表明，儘管來自AMD、Intel、雲端服務供應商（自研AI晶片）和各種小型公司的競爭加劇，但輝達明年的AI晶片市場份額將會進一步成長。

輝達Blackwell GPU已量產，預計四季度將創造100億美元營收

9月25日消息，根據摩根士丹利最新發佈的報告稱，AI晶片大廠輝達（Nvidia）最新的Blackwell構架GPU已經開始量產，預計今年第四季度有望創造100億美元營收。摩根士丹利指出，隨著Blackwell GPU進入量產階段，大客戶的需求將為輝達帶來顯著的營收成長動能，而規模較小的客戶，對采Hopper構架的H200需求也漸增。預計今年四季度Blackwell晶片出貨量有望達到450,000顆，有機會創造超過100億美元的營收。摩根士丹利坦言，輝達正在解決GB200伺服器機櫃面臨的幾項“技術性挑戰”，但這都是新品發售前常見的除錯過程。而H200需求依舊非常健康，主要是受到主權國家AI項目、規模較小的雲端服務商持續擴張產能的影響。不過，近日有傳聞稱，美國可能會在今年 10 月對半導體出口管制政策的審查中實施額外的限制，可能將包括決定禁止輝達H20晶片的對華出口。據估計，如果實施 H20 禁令，輝達在中國可能將會損失高達 120 億美元的收入，這將對該公司在中國市場的可持續性造成巨大打擊。

歷史記錄！甲骨文豪擲13萬塊Blackwell GPU，打造全球最大的算力集群。總投資200億美元

Oracle，全名為甲骨文，是全球領先的資訊管理軟體及服務供應商，總部位於美國加州的紅木城。公司成立於1977年，Oracle的主要業務是資料庫管理系統，其開發的Oracle資料庫產品因其性能卓越而聞名，被廣泛應用於各行各業，特別是被財富排行榜上的前1000家公司以及眾多大型網站所採用。除了資料庫管理系統外，Oracle還提供了一系列的企業軟體解決方案，涵蓋企業資源規劃、客戶關係管理、供應鏈管理，幫助企業提高管理效率、降低成本並增加競爭力。 01 /OCI超級叢集：雲端AI效能的全新巔峰131,072塊輝達Blackwell GPU Oracle正醞釀其最新力作－OCI超級集群，重塑AI超級運算領域。不只是一台普通的雲端超級計算機，是Oracle向未來AI時代堅定大基建。 OCI超級集群算力巨擘，這台超級電腦將搭載前所未有的131,072塊輝達Blackwell GPU，這一數量不僅刷新了最新的記錄，驚世駭俗的投資。如果這些GPU齊力並發，OCI超級叢集的峰值效能預計將飆升至爆表的2.4 zettaflops，也就是說每秒超過十億億次的運算能力，全球最頂尖的超級電腦也望塵莫及。這裡的效能標準採用了FP8，之前有解釋過，是專為AI優化，相較於傳統的FP64計算，FP8在保證精度的同時，大幅提升計算效率。 02 /靈活與安全並重的雲端AI服務多元化配置與未來探索

黃仁勳劇透未來三代GPU，新架構Rubin、Vera及GPU/CPU二合一超級晶片悉數亮相

台北時間6 月2 日晚，輝達創始人兼CEO 黃仁勳如期帶來了這場「AI 時代如何助推全球新工業革命」的主題演講。圍繞著最受業界關注的晶片產品方面，黃仁勳現場宣布（更確切地說像是「劇透」）了未來三代的GPU 架構、下一代CPU 架構，以及全新GPU+CPU 二合一超級晶片。（資料來源：輝達官網）演講中，他展示還了輝達晶片產品的年度升級周期計劃，將堅持資料中心規模、一年節奏、技術限制以及一個架構的路線。換句話說，採用時下最先進的半導體製程工藝，使用統一架構覆蓋整個資料中心GPU 產品線，每年更新迭代一次（以往通常是每兩年更新一代）。